查看原文
其他

高分文章这样轻松发?机器学习帅气连招,只有想不到没有做不到!

雪梨 挑圈联靠
2024-08-23

大家好,欢迎来到雪梨的生信套路~


有还没入门机器学习的生信人吗?或者在苦恼,如何提高以机器学习为主要方法的文章质量?相信今天带来的文献可以帮到你。它提出一种在以往评估多基因风险评分预测性能的研究中,往往被忽视的策略——交叉验证,介绍的一种结合特征选择应用机器学习算法的可靠流程,大大提高了与已知风险因素结合使用时的准确率。在预测冠状动脉疾病(CAD)风险方面有显著进步,有望在后续研究中推行到其他复杂疾病的遗传风险预测之中。


同时,该文献也评估了在机器学习模型中选择特征的三种方法,还使用了三种方法比较了特征选择(FS)驱动的机器学习模型与多基因风险评分的分类性能,有助于初学者对机器学习产生基本的认知,可谓干货满满,建议获取文献精读!







Enhancing prediction accuracy of coronary artery disease through machine learning-driven genomic variant selection

通过机器学习驱动的基因组变异选择提高冠心病的预测准确性


期刊:The Journal of Translational Medicine

IF:7.4

发布时间:2024/04/16


研究背景 


估算如冠状动脉疾病(CAD)等复杂疾病的遗传风险时,通常用到多基因风险评分(PRS),它是一个数字,代表个体对某种疾病的遗传易感性,由与疾病相关的单核苷酸多态性(SNPs)的效应大小总和得出。但以往评估PRS预测性能的研究中,往往忽略了交叉验证这种方法。它可以确保对于基于基因组变异的预测模型进行更稳健的评估。


PRS面临的一个重大挑战是它可能依赖于大量的基因组变异,在临床转化方面由于成本效益,受到阻碍。此外,纳入过多的弱预测因子可能会导致结果偏差,并给在不同队列中复制研究结果带来挑战。


应用机器学习(ML)的策略方法可以发现在单基因位点水平上不一定具有统计学意义的关联,但在变异基因组水平上仍有助于提高综合预测能力。然而,使用具有大量特征的 ML 算法(如全基因组关联研究(GWAS)产生的特征)会导致复杂的模型,执行速度较慢,最重要的是容易出现过度拟合。减少过拟合的一种方法是特征选择。特征选择的目的是降低数据维度,去除噪声和不相关数据,从而保留数据集中最有用的变量。此外,特征选择还有助于为复杂的分类任务识别出一套简明的基于组学的特征,从而提高生物标记物面板的开发成本效益


特征选择方法主要有三种:过滤法、嵌入法和包装法,基于筛选的特征选择是为 GWAS 选择相关基因型最常用的方法,因为它依赖于统计量来对单个遗传变异与目标变量(如已知表型性状、疾病状态等)之间的关联性进行评分。然后,计算出的分数(如大小效应、P 值等)可用于选择(或优先选择)最相关的特征或遗传位点。本研究介绍了一种结合特征选择,应用ML算法(ML-FS)的强大流程。


 技术路线 




A-C 首先对从UK Biobank收集的数据进行预处理,以提取感兴趣的表型(CAD与非CAD),并生成高质量的基因型估算数据。


D-E 为了确定与关联测试最相关的协变量,对CAD相关风险因素进行分析,并对基因型数据进行了主成分分析。


F 采用十倍交叉验证对基于 ML 的方法和 PRS 进行公平比较。


G 根据三种特征选择策略(包括基于筛选的方法和嵌入式方法)选择了预测 CAD 的基因组变异。


H-I 实施了三种 PRS 方法,并结合基于逻辑回归的分类器进行分类。


J 通过 FS 选择的基因组变异被系统地用于训练三种不同的分类算法:Lasso、RF 和 SVM。

K 以 ROC 曲线下面积(AUC)统计作为主要的准确度指标。此外,还记录了每个特征在不同训练集和特征选择方法中被选择的频率。


L 对信息量最大的 SNPs 进行进一步分析,以评估其生物学相关性。



 实验结果 


Figure 6


特征选择的稳定性和最稳定基因组变异的选择


图 6A 显示了特征选择的一致性、可靠性,描述了在多次交叉验证中被选中的前 K 个特征的重叠百分比。与基于 RF 的特征选择相比,基于 GWAS 的特征选择由于使用了特征选择的过滤方法,因此预期会更加稳健,但它只有在考虑前 10 个特征时才能提供最稳定的结果。然而,当达到分类性能的高点,也即选择前 50 个特征时,所有特征选择方法都表现出了类似的模型稳定性。


为了找出被每种特征选择策略一致选择为重要特征的基因组变异,研究团队确定了至少五次出现在前50个基因组特征中,并且在所有方法中都被选中的基因组变异。图 6C显示6个基因组变异被特征选择策略一致选择为重要变异,认为这些变异对所有方法的结果都有重大影响,方便为CAD风险预测定义一小部分新型SNPs。






想要高效发文的朋友们快来投奔挑圈联靠的站姐——雪球老师吧!跟着大部队走,这是生信发高分的最快途径了~


如果你想做机器学习+风险评分思路相关的生信,想获得拆解的原文献,或者想收看最新的直播课程,就扫描下方二维码添加雪球老师微信获得更多资讯吧!


上期直播主题是“发文章必备关键技能:课题设计&基因筛选”


现在添加雪球老师微信,回复“0606”,即可获取原文~


都看到这里了,点个星标再走吧!

继续滑动看下一个
挑圈联靠
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存